Parallelize Import Process by vjekoslav · Pull Request #43 · senko/cijene-api

vjekoslav · 2025-07-22T09:19:12Z

This pull request aims to significantly improve performance and reduce the time required to import large datasets. The changes primarily affect the import logic and related modules.

The previous sequential import process was a bottleneck for large data files. By parallelizing the workload, we can leverage multi-core CPUs and achieve much faster import times, making the system more scalable and responsive. There are other approaches as well, CSV imports, temporary table copy, code optimizations, race conditions evasion, and probably more.

Key Changes

Refactored import logic to support parallel execution (using threads/processes as appropriate).
Refactored and updated relevant modules in service/db/import.py and service/db/importer/ to enable concurrent processing of data chunks.
Database PK changes

Daily import speed comparison

On MacBook Pro M2:
Before optimization: ~350 seconds for 20 stores
After optimization: ~100 seconds for 20 stores

I've tested the data for consistency with previous import. Please, review that part as well.

I've tried extracting anchor_price into a new table because that value never changes and is always the same in every import. Currently, it is duplicated per row per day. However, whatever I tried, it would slow down the import process, so I've postponed that optimization for later. It would shrink the prices table, and anchor_price insert should be 99% skippable.

…ormance

…andling

…oduct IDs

…esses

…alidation processes

…in import processes

…nts and adding a composite primary key

…SV price processing The db object is properly initialized from settings.get_db()

senko · 2025-07-22T10:40:39Z

Hvala na PR-u, ali molim te razbi ovo u nekoliko malih nezavisnih, jer reviewanje 1300 linija promjena sa masu refactora nije baš ugodno.

Također bih cijenio da refactore i/ili promjenu baze prvo dogovorimo u issueu prije, jer je ovako rizik da dobijem PR u koji uložiš puno truda jer nam se vizije ne poklapaju.

Konkretno za samu paralelizaciju mislim da je dovoljno ne awaitati nego spremiti future u array i onda await all, tj 2-3 linije promjene (+ još desetak ako to želimo kao nondefault opciju).

vjekoslav · 2025-07-25T19:25:27Z

Imas pravo, ovo je bilo djelomicno eksplorativno, da vidim sta se moze napraviti.

Ono sto sam pronasao je race condition kod EAN procesiranja u paralelnom radu. Tocnije deadlockove na nivou baze. Mislim da je problem bio da EAN kod ne bi postojao u bazi a da bi dodavali proizvod ili tako nekako. Tako da su ovdje dvije faze, prva je sekvencijalno procesiranje svih EAN-a i dictionary koji dijele svi paralelni proces, a druga faza je paralelno procesiranje cijena. EANi mutiraju samo u prvoj fazi.

Pokusao sam i sa DB lockovima i sa semaforima, ali su se stvari previse zakomplicirale s vremenom, kod je postao prekompleksan.

Malo sam zaboravio tocne detalje problema.

BTW. pokusao sam se maknuti od import.py jer je import rezervirana rijec u Pythonu, pa radi probleme kod importa. Importer to rijesava vecinom jer se sada fileovi mogu importirati.

Probati cu razbiti u nezavisne PR-ove.

Vjeko Nikolic and others added 21 commits July 14, 2025 14:57

refactor: refactor import process

7c4b415

feat: implement bulk EAN addition in database

bbc6480

feat: add bulk store addition functionality to database

c477dff

refactor: optimize bulk price insertion using CSV format

ab32f57

feat: implement direct CSV streaming for price import to enhance perf…

845d18f

…ormance

feat: enhance price import process with sequential and parallel EAN h…

dc95ecb

…andling

fix: improve logging for skipped price rows by including store and pr…

ca91583

…oduct IDs

refactor: clean up code formatting and improve logging in import proc…

5ef529f

…esses

fix: enhance error handling and logging in archive import and chain v…

80e1209

…alidation processes

fix: ensure idempotent table creation and improve directory handling …

b309776

…in import processes

refactor: clean up whitespace

7288a3a

refactor: update prices table structure by removing existing constrai…

057fcc7

…nts and adding a composite primary key

Merge branch 'senko:main' into import-parallel

3851d3c

refactor: remove unnecessary whitespace

fc1d547

refactor: simplify table creation logic in import process

70a1bc3

refactor: Break down large functions into smaller, focused functions

0aec198

refactor: rename functions for clarity

3cc9446

refactor: update type hint for optional product fields to allow None

e41aaa4

refactor: remove unnecessary whitespac

e10429f

refactor: add type ignore comment for possibly unbound attribute in C…

0b639be

…SV price processing The db object is properly initialized from settings.get_db()

refactor: add type ignore comment for DictReader to handle type checking

92f2da7

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Parallelize Import Process#43

Parallelize Import Process#43
vjekoslav wants to merge 21 commits intosenko:mainfrom
vjekoslav:import-parallel

vjekoslav commented Jul 22, 2025

Uh oh!

senko commented Jul 22, 2025

Uh oh!

vjekoslav commented Jul 25, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

vjekoslav commented Jul 22, 2025

Key Changes

Daily import speed comparison

Uh oh!

senko commented Jul 22, 2025

Uh oh!

vjekoslav commented Jul 25, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants